本文在使用易于使用的资源和使用语义的情况下,有关基于文本的网络钓鱼检测的实验报告。开发算法是先前发布的工作的修改版本,它适用于同一工具。在识别网络钓鱼电子邮件中获得的结果比以前报告的工作更好;但由于虚假被识别为网络钓鱼的文本率略差。预计添加语义组件将减少假阳性率,同时保留检测精度。
translated by 谷歌翻译
使用相对比心脏磁共振成像(PC-CMR)进行的流量分析可以量化用于评估心血管功能的重要参数。该分析的重要部分是鉴定正确的CMR视图和质量控制(QC),以检测可能影响流量定量的伪像。我们提出了一个新型的基于深度学习的框架,用于对完整CMR扫描的流量进行完全自动化的分析,该框架首先使用两个顺序卷积神经网络进行这些视图选择和QC步骤,然后进行自动主动脉和肺动脉分段,以实现对量化的量化。钥匙流参数。对于观察分类和QC,获得了0.958和0.914的精度值。对于细分,骰子分数为$> $ 0.969,而平淡的altman情节表示手动和自动峰流量值之间的一致性很高。此外,我们在外部验证数据集上测试了管道,结果表明管道的鲁棒性。这项工作是使用由986例病例组成的多生临床数据进行的,表明在临床环境中使用该管道的潜力。
translated by 谷歌翻译
噪声的去除或取消对成像和声学具有广泛的应用。在日常生活中,Denoising甚至可能包括对地面真理不忠的生成方面。但是,对于科学应用,denoing必须准确地重现地面真相。在这里,我们展示了如何通过深层卷积神经网络来定位数据,从而以定量精度出现弱信号。特别是,我们研究了晶体材料的X射线衍射。我们证明,弱信号是由电荷排序引起的,在嘈杂的数据中微不足道的信号,在DeNo的数据中变得可见和准确。通过对深度神经网络的监督培训,具有成对的低噪声数据,可以通过监督培训来实现这一成功。这样,神经网络就可以了解噪声的统计特性。我们证明,使用人造噪声(例如泊松和高斯)不会产生这种定量准确的结果。因此,我们的方法说明了一种实用的噪声过滤策略,可以应用于具有挑战性的获取问题。
translated by 谷歌翻译
The Flickr30k dataset has become a standard benchmark for sentence-based image description. This paper presents Flickr30k Entities, which augments the 158k captions from Flickr30k with 244k coreference chains, linking mentions of the same entities across different captions for the same image, and associating them with 276k manually annotated bounding boxes. Such annotations are essential for continued progress in automatic image description and grounded language understanding. They enable us to define a new benchmark for localization of textual entity mentions in an image. We present a strong baseline for this task that combines an image-text embedding, detectors for common objects, a color classifier, and a bias towards selecting larger objects. While our baseline rivals in accuracy more complex state-of-the-art models, we show that its gains cannot be easily parlayed into improvements on such tasks as image-sentence retrieval, thus underlining the limitations of current methods and the need for further research.
translated by 谷歌翻译
The NASA Astrophysics Data System (ADS) is an essential tool for researchers that allows them to explore the astronomy and astrophysics scientific literature, but it has yet to exploit recent advances in natural language processing. At ADASS 2021, we introduced astroBERT, a machine learning language model tailored to the text used in astronomy papers in ADS. In this work we: - announce the first public release of the astroBERT language model; - show how astroBERT improves over existing public language models on astrophysics specific tasks; - and detail how ADS plans to harness the unique structure of scientific papers, the citation graph and citation context, to further improve astroBERT.
translated by 谷歌翻译
由于迭代元素的结构诱导属性,尤其是在可行的集合上的线性最小化相比,弗兰克 - 沃尔夫方法在统计和机器学习应用中变得越来越有用,尤其是在线性最小化的设置上比投影更有效。在经验风险最小化的设置中,统计和机器学习中的基本优化问题之一 - 弗兰克 - 沃尔夫方法的计算有效性通常在数据观察数$ n $的数量中线性增长。这与典型随机投影方法的情况形成鲜明对比。为了减少对$ n $的依赖性,我们将寻求典型平滑损耗功能的二阶平滑度(例如,最小二乘损失和逻辑损失),我们建议使用泰勒串联序列的Frank-Wolfe方法修改Frank-Wolfe方法,包括确定性和随机设置的变体。与当前的最新方法相比,最佳公差$ \ varepsilon $足够小,我们的方法能够同时减少对大$ n $的依赖,同时获得Frank-Wolfe方法的最佳收敛速率,在凸和非凸设置中。我们还提出了一种新型的自适应阶梯尺寸方法,我们可以为其提供计算保证。最后,我们提出的计算实验表明,我们的方法对凸面和非convex二进制分类问题的现有数据集上的现有方法表现出非常明显的速度。
translated by 谷歌翻译
在分布式深度学习的背景下,陈旧的权重或梯度的问题可能导致算法性能差。这个问题通常通过延迟耐受算法来解决,并在目标函数和步进尺寸上有一些温和的假设。在本文中,我们提出了一种不同的方法来开发一种新算法,称为$ \ textbf {p} $ redicting $ \ textbf {c} $ lipping $ \ textbf {a} $ synchronous $ \ textbf {s} textbf {g} $ radient $ \ textbf {d} $ escent(aka,pc-asgd)。具体而言,PC -ASGD有两个步骤 - $ \ textIt {预测步骤} $利用泰勒扩展利用梯度预测来减少过时的权重的稳固性,而$ \ textit {clivipping step} $选择性地降低了过时的权重,以减轻过时的权重他们的负面影响。引入权衡参数以平衡这两个步骤之间的影响。从理论上讲,考虑到平滑的物镜函数弱键和非凸的延迟延迟的延迟,我们介绍了收敛速率。还提出了一种实用的PC-ASGD变体,即采用条件来帮助确定权衡参数。对于经验验证,我们在两个基准数据集上使用两个深神经网络体系结构演示了该算法的性能。
translated by 谷歌翻译
铁路休息是国际脱轨的最常见原因之一。这对南非铁矿石线没有什么不同。当大型火车经过裂缝,大缺陷或有缺陷的焊缝时,许多铁路断裂发生。在这种情况下,火车及时放慢以防止驱逐出境的时间通常为时已晚。知道发生轨道障碍的风险与火车经过一部分铁轨有关,可以更好地实施维护计划和缓解措施。在本文中,讨论了矿石线的具体挑战,并审查了当前可用的数据来创建铁路断路风险预测模型。然后提出了矿石线基本的轨道断裂风险预测模型的开发。最后,通过讨论各种铁路断裂风险的各种情况来证明从模型中获得的见解。在将来的工作中,我们计划扩展此基本模型,以允许从实时监控系统(例如超声波破碎的铁路检测系统)输入。
translated by 谷歌翻译
应用于潜在的Dirichlet分配(LDA)的变异贝叶斯(VB)已成为方面建模最受欢迎的算法。尽管从大型语料库中提取文本主题方面取得了足够的成功,但VB在识别有限数据的情况下识别方面的成功较少。我们提出了通过应用于潜在的Dirichlet分配(LDA)的新型变分信息,并将其与金标准VB进行比较并崩溃的Gibbs采样。在边缘化导致非混合消息的情况下,我们使用采样的想法来得出近似更新方程。如果存在共轭,则使用Loopy信念更新(LBU)(也称为Lauritzen-Spiegelhalter)。我们的算法Albu(近似LBU)与变异消息传递(VMP)具有很强的相似性(这是VB的消息传递变体)。为了比较在有限数据的存在下算法的性能,我们使用由推文和新闻组组成的数据集。使用相干度量,我们表明ALBU比VB更准确地学习潜在分布,尤其是对于较小的数据集。
translated by 谷歌翻译
通过一系列联邦举措和命令,美国政府一直在努力确保美国在AI中的领导。这些广泛的战略文件影响了美国空军美国部(DAF)等组织。DAF-MIT AI加速器是DAF和MIT之间的一项计划,以弥合AI研究人员与DAF任务要求之间的差距。DAF-MIT AI加速器支持的几个项目正在开发公共挑战问题,这些问题解决了许多联邦AI研究的重点。这些挑战是通过公开可用的大型AI-Ready数据集,激励开源解决方案,并为可以激发进一步研究的双重使用技术创建需求信号,来针对优先事项。在本文中,我们描述了正在开发的这些公共挑战以及它们的应用如何促进科学进步。
translated by 谷歌翻译